科技丨盘点8月开源大模型!哪些你还不知道?
8 月的开源大模型圈堪称「神仙打架」——从通义千问、腾讯混元的高频更新,到小红书、美团的压轴入局,文生图、视频理解、医疗专用、端侧轻量化等各类模型密集亮相,连 OpenAI 都凑了波热闹。这些新模型里,既有能在手机端跑的 4B 小模型,也有 560B 参数的超
8 月的开源大模型圈堪称「神仙打架」——从通义千问、腾讯混元的高频更新,到小红书、美团的压轴入局,文生图、视频理解、医疗专用、端侧轻量化等各类模型密集亮相,连 OpenAI 都凑了波热闹。这些新模型里,既有能在手机端跑的 4B 小模型,也有 560B 参数的超
在日常的工作与生活中,我们常常会遇到需要处理图片的情况,而图片大小往往是一个令人头疼的问题。过大的 JPG 图片不仅会占据大量的存储空间,还会在传输过程中耗费更多的时间和流量。
这项由中国科学技术大学联合HiDream.AI公司完成的突破性研究发表于2025年8月,论文标题为《Visual Autoregressive Modeling for Instruction-Guided Image Editing》。感兴趣的读者可以通过a
近年来,强大的扩散模型(Diffusion Model)席卷了AI图像编辑领域,它们能生成惊艳且逼真的图像。然而,这背后却隐藏着两大痛点:效果“失控”与效率低下。由于其“牵一发而动全身”的生成机制,尽管只想修改一个局部细节时,模型却可能“画蛇添足”,影响到本应
谷歌正在对其Gemini聊天机器人进行重大升级,推出全新的AI图像模型,为用户提供更精细的照片编辑控制功能。这一举措旨在追赶OpenAI的热门图像工具,并从ChatGPT中吸引更多用户。
gemini 图像编辑 flash v flashimage 2025-08-27 23:30 5
谷歌正式发布了Gemini 2.5 Flash Image新模型,该模型此前在测试阶段被称为"nanobanana",为企业创意项目提供了更多选择。该模型能够快速改变图像外观,相比以往版本提供更精准的控制能力。
gemini 图像编辑 flash flashimage 企 2025-08-27 23:16 5
近日,通义千问宣布了一项重大进展,正式推出了其首个开源图像生成基础模型——Qwen-Image。该模型基于MMDiT架构,拥有惊人的200亿参数,标志着通义千问在图像生成领域迈出了坚实的一步。
通义模型家族,刚刚又双叒开源了,这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。
8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。
通义千问系列首次开源了一款名为Qwen-Image的20亿参数多模态扩散变换器(MMDiT)图像生成基础模型。这一创新成果不仅在复杂文本渲染和精确图像编辑方面取得了突破性进展,更是在多个公开基准测试中展现了卓越性能,成为图像生成与编辑领域的新星。
阿里通义千问团队今日宣布开源Qwen-Image,这是一个 20B 的 MMDiT 模型,也是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。
对于那些喜欢编辑图像的人来说,将一个物体自然地放入背景场景中一直是个难题。想象一下,你手中有一张可爱柯基犬的照片,希望将它放在客厅沙发上,但总是效果不佳:要么柯基看起来像"贴"上去的贴纸,要么角度不对,要么狗狗的毛色和特征都变了。这正是南方科技大学林剑满、李昊
豆包的一句话P图功能,又进化了!各种高考祝福、网络梗图、大片级精修、设计师草稿,无不是信手拈来。此刻,AI P图再次迎来降维打击,只要用自然语言,就能实现精准的图片编辑。可以说,AI修图终于来到了3.0时代!
现有的图像编辑评测基准是否已经无法跟上时代的步伐?仅仅停留在“更换颜色”等改变物体表层属性的测试,是否已显得过于简单,无法真正衡量AI的“深度理解”能力?当指令变得更加复杂,涉及图片背后的逻辑、上下文关联甚至隐含意图时,现有模型能否正确“领会”并精准执行,同时
随着数字时代的迅速发展,自媒体已成为人们获取信息、分享视角、甚至实现个人品牌化的重要渠道。如果你想要深入学习自媒体,掌握从基础到进阶的各项技能,需要明确学习路径,并逐步构建自己的内容生态。本文将为你提供从零开始学习自媒体的起步方法,帮助你在这个充满潜力的领域找
迪士尼经典反派电影《黑白魔女库伊拉》中的“浴火红裙”桥段令人印象深刻。一根火柴烧掉了平淡无奇的白色斗篷后,露出了惊艳的红色长裙。或许,许多服装人,在很多纠结的时刻,都想拥有这样一根“魔法火柴”吧.....
不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。
亮点直击新发现:旨在解决由编辑指令与原始-编辑图像对之间错位引起的噪声监督问题,这是先前工作忽视的根本性问题,如下图2所示。修正监督:利用扩散生成先验指导视觉语言模型,为原始-编辑图像对生成更匹配的编辑指令。强化监督:引入基于三元组损失的对比监督,使编辑模型能
好不容易拿到相机拍的旅行大片,结果发现全是 nef 格式,手机根本打不开!是不是很多人都遇到过这种崩溃瞬间?其实这是尼康相机专用的 RAW 格式,虽然画质超高清,但普通软件确实认不出来。别慌!今天手把手教你 6 个超简单的打开方法,就算是电脑小白也能轻松搞定!
在人工智能领域,有两类模型一直沿着不同的轨道发展:一类擅长"理解"图像和文字,就像一个能看懂图片并回答问题的智能助手;另一类则擅长"创造"图像,就像一位根据文字描述作画的数字艺术家。直到最近,这两种能力很少能在同一个AI系统中完美共存。这正是阿里巴巴集团联合多